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e = KNN 
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+ Métodos baseados em distância + Métodos baseados em distância 


= Consideram proximidade entre dados = Principio básico 
= Considera que dados similares tendem a estar em = Se anda como um cachorro e late como um 
uma mesma região no espaço de entrada cachorro, então provavelmente é um ... 
= Aprendizado preguiçoso Ra E | Eemnio 
= Só olha os dados de treinamento quando precisa treinamento O) de teste 
classificar novo objeto Pa Pg distância 
= Exemplos: 
= Algoritmo k-vizinhos mais próximos 
= Raciocínio Baseado em Casos 
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Similaridade x Dissimilaridade + Medida de proximidade 


= Similaridade = Várias 
= Mede o quanto dois objetos são parecidos no 
= Quanto mais parecidos, maior o valor = Euclidiana 
= Geralmente valor e [0, 1] = Quadrática 
= Dissimilaridade 
= Mede o quanto dois objetos são diferentes 
= Quanto mais diferentes, maior o valor 
= Geralmente valor e [0, X] 
= Medida de proximidade pode ser usada nos 
dois casos 


= Bloco-cidade 
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Distância Euclidiana 
= Pode medir dissimilaridade de objetos 


com mais de um atributo 


= Para atributos com escalas de valores . 
diferentes, pode ser necessario normalizar 


dist = Dip; - q) 
k=1 
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+ Distância quadrada 


= Simplificação da distância 
= Menor complexidade 
= Menor exatidão 


dist=MAX(| p,—q,| 
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+ Exercício 


= Calcular a distância entre os exemplos 
abaixo usando as distâncias 
= Manhattan 
= Eucilidiana 
= Quadrada 
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Distancia de Minkowski 


= Generalização da distância Euclidiana 
m 1 
dist=(0 pq | 
k=1 


= Valor de r leva a diferentes distâncias 
= 1 (L,): Distância bloco cidade (Manhattan) 
= Hamming (valores binários) 
= 2 (L,): Distância Euclidiana 
= oo (L.): Distância suprema 
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Relação entre distâncias 


Qualquer ponto que cair na fronteira, dará o 
mesmo valor de distância do centro 


Distância Euclidiana 


Distância quadrada 


Distância Manhattan 
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+ Exercício 
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= Encontrar a distância entre os exemplos 


abaixo utilizando a distância Manhattan 


« 110000, 111001, 000111, 001011, 100111, 
101001 
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4 Medidas de distâncias 4 Medidas de similaridade 


= Têm, em geral, têm as propriedades: = Também têm propriedades bem 
= Seja d(D, q) a distância (dissimilaridade) definidas: o | 
entre dois objetos pe q = Seja s(p, q) a similaridade entre dois 
«Ap, )>0Vpegedp, q)=0seep=q objetos peg = 
(definida positiva) = S(D, q) = 1 (similaridade maxima) apenas se p 

= AD, 9) = Aq, P)Y pe g (simetria) E 

“dp )<dip q) +dig )vp ger a (od dA SG 
(desigualdade triangular) 

= Medidas que satisfazem essas 


propriedades são denominadas métricas 
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+ Dissimilaridade entre valores + Exercício 


= Sejam a e b dois valores de um atributo = Qual a distância entre os exemplos da 
= Nominal I,seazb 
d(a,b) = 


tabela abaixo 


= Usar distâncias 
= Euclidiana 
d(a,b) = amb, a Bloco cidade 
«S=1-d n—1 «- Máxima 


= S= l-d 
= Ordinal 


O,sea=b 


= Intervalar ou racional 


d(a,b)=|a—b 
«S=-dous=il1/(l+d) 
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Similaridade entre vetores binários 


Similaridade entre vetores binários 
= Frequentemente, objetos p e q têm apenas 
valores binarios 


= Similaridades podem ser computadas 
usando: 
= Mo, = número de atributos em que p= 0 e q = 1 
= M,)= número de atributos em que p= 1 e q=0 = Coeficiente Jaccard 
= Moo = número de atributos em que p=0e q=0 
= M,, = número de atributos em que p= 1 e q=1 


= Coeficiente de Casamento Simples 


CCS = num. de coinc. / num. de atributos 
= (M + Moo) / (Mo + Mio + Mj + Moo) 


J | = num. coinc. 11 / num. Pelo menos.um x O 


= (M,1) / (Mo + Mio + M,1) 
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4 Exercício 4 Similaridade cosseno 


= Calcular disssimilaridade entre pe q = Muito usado para dados de textos 


usando coeficientes: = Grande número de atributos 
= Casamento Simples = Esparsos 


Jaccard 
. E Sejam pe gvetores representando 
documentos 
«cos( 7 )= (pe q/|lldl 
= *: vector produto interno entre vetores 
- || / ||: é o tamanho (norma) do vetor p 
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+ Classificação + 1-vizinho mais próximo 


= Medidas de distância podem ser usadas = Algoritmos /azy (preguiçoso) 


para classificação de novos dados = Olha apenas os dados de treinamento 
« Classificadores mais simples quando precisa classificar novo objeto 
K-NN = Não constroem um modelo explicitamente 


Dsmilandsds en irá = Diferente de classificadores eager, como 
= Dissimilaridade entre valores SVMs e DTs 


= Desempenho depende da medida de 


e = Baseados em informações locais 
distância utilizada 


= ADs, RNs e SVMs são baseados em 
informações globais 
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+ 1-vizinho mais próximo + Quantos vizinhos? 


= K muito grande 
= Vizinhos podem ser muito diferentes 
Ac = Predição tendenciosa para classe 


saudável AR 
majoritária 
oca = Custo computacional mais elevado 
= K muito pequeno 
= Não usa informação suficiente 


= Previsão pode ser instável 
Exame 1 = Ruído 
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+ Quantos vizinhos? + Quantos vizinhos? 


Classe Classe 
saudável saudável 


o Classe IS. EE Classe 
doente CS ne doente 


























Exame 1 Exame 1 
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+ K-Vizinhos mais próximos + K-vizinhos mais próximos 


= Lento para classificar novos objetos 


Seja k o número de vizinhos mais = Seleção de atributos 
próximos a ser considerado = Eliminação de objetos 
Para cada novo exemplo x = Armazenar apenas protótipos das classes na 
Definir a classe dos k exemplos memória 
mais próximos = Algoritmos iterativos 
Classificar x na classe majoritária - Eliminação sequencial 
entre seus vizinhos » Inserção sequencial 
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4 K-vizinhos mais próximos + K-vizinhos mais próximos 


= Seleção de protótipos = Normalizar atributos 
= Definir um protótipo por classe = Ponderar atributos 
= Eliminação sequencial 
= Começa com todos os objetos 
= Descarta objetos corretamente classificados pelos exemplos 


protótipos E Reg ressão 


= Ponderar voto por distância entre 


= Inserção sequencial 
= Conjunto inicial vazio 


= Acrescenta objetos incorretamente classificados 
pelos protótipos 


= Naturalmente incremental 
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+ Exercício 


= Seja O seguinte cadastro de pacientes: 
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+ Exercício 


= Data a tabela abaixo, com k =1 e 3, 
definir a classe dos exemplos: 
= (RJ, Médio, 178, 2000) 
= (SP, Superior, 200, 800) 
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dá. 


EXPERIÊNCIA BASE DE 
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+ Exercício 


= Usar K-NN e os exemplos anteriores 
para definir as classes dos exemplos de 
teste 


= Usark=1,3e5 

= Exemplos de teste 
= (Luis, não, não, pequenas, sim) 
= (Laura, sim, sim, grandes, sim) 
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+ Raciocínio baseado em casos 


= Moda no passado: Sistemas Baseados em 
Regras 


= Dificuldade de especialistas em transformar 
experiência em regras 


Essas 
Then... 
Else... 


EXPERIÊNCIA REGRAS 
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Como funciona RBC? 


= Resolve novos problemas adaptando soluções 
de problemas anteriores semelhantes 


ES Nova solução 


EXPERIÊNCIAS 


Mas não uma BD! 


am Novo problema 
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+ Passos + O que é um caso? 


= Apresentar situação atual = Existem dois tipos de casos 
= Recuperar casos semelhantes da biblioteca Cas ds enadai 
= Adaptar solução « Descrição de características de problemas 
específicos 
= Casos armazenados: 


= Casos anteriores 
- descrição, solução e resultados 


Que pacote de Casos semelhantes Adaptação 
viagem comprar? 
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+ O que é um caso? + Raciocínio baseado em casos 
AN 


= Um caso armazenado geralmente tem: Caso 1 


E U ma pa rte Caso Descrição do problema: 
ã Ambiente: praia 
= Sintomas Novo Caso 


Duração: 7 dias 
= Usada para identificar o caso Custo máximo: 1000 








Região: SE 
hj A Descrição do problema: 
» Indexação e recuperação Ambiente: praia 
mo Duração: 5 dias 
Região: NE 
«= Uma parte solução a o Local: Ubatuba 
. Transporte: Onibus 


= Explica como este caso foi resolvido Acomodação: Hotel Uau 
anteriormente de forma bem (mal) sucedida Solucdo do problema: Refeição: Bar do Zé 


= Adaptada quando o caso é recuperado RP 
Acomodação: ??? 
Refeição: 72? 


Solução: do problema 
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4 Ciclo de um sistema de RBC + Conclusão 


Problema —— = Aprendizado baseado em distância 


e tdo Reipeo = Conceitos básicos 
>< [ Caso recuperado = KNN 


| [ Casos prévios - *| Reutilização ND 
| = Raciocínio Baseado em Casos 


x Das = 

conhecimento, * | Caso resolvido 

Ns = = Exemplos 

as Revisão 
N Caso testado/reparado 


Ê | Retenção 
Caso aprendido 
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4 Perguntas 
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